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摘 要 : [目的 /意义 ] 调 查 我 国 部 分 双 一 流 高 校 图 书馆 数据 保全 能 力 以 及 流失 现状 ,研究 和 分 析 数 字 保存 能 力 成 熟 度 模型 
在 减少 数据 流失 以 及 数据 保全 的 应 用 ,为 国内 数据 保全 系统 的 建设 和 发 展 提供 参考 。[ 方法 过程 ] 通过 对 国内 
外 部 分 高 校 图 书馆 官方 网 站 的 数据 保全 和 利用 情况 进行 探究 ,从 数字 馆藏 资源 数字 保存 能 力 与 政策 数字 保存 
意识 等 维度 进行 分 析 , 并 对 图 书馆 运作 过 程 中 产生 的 数据 流失 现象 提出 意见 。[ 结果 /结论 ] 总结 我国 部 分 高 校 数 
字 保 存 现状 ,提出 我 国 高 校 图 书馆 提高 数字 保存 能 力 的 必要 性 与 重要 意义 ,并 用 数字 保存 能 力 成 熟 度 模 型 (DPC- 


MM ) 对 高 校 图 书馆 数据 保全 提供 理论 支持 。 
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随 着 数字 化 时 代 的 迅速 到 来 ,数字 资源 的 保存 和 
代 仿 已 然 成 为 一 个 艰难 的 问题 。 数 字 资 源 的 管理 复 
菊 计 高 ,风险 大 ,各 行 各 业 的 数据 保全 面临 着 成 本 
高 < 价值 密度 低 ,保护 政策 缺失 等 重大 问题 。 而 图 书 
馆 < 泗 物 馆 、 艺 术 馆 等 机 构 作为 社会 公共 组 织 ,在 人 
奖 矣 据 保 全 中 起 到 至 关 重 要 的 作用 ,在 国外 高 校 图 
书 席 数 据 保全 已 逐渐 成 为 热点 议题 。 笔 者 通过 分 析 
国 丙 部 分 高 校 图 书馆 官网 中 数据 相关 政策 以 及 利用 
程 蚁 时 发 现 ,国内 高 校 图 书馆 在 数据 保全 方面 仍 存 
在 重大 缺陷 ,在 高 校 图 书馆 运作 过 程 中 出 现 了 数据 
流失 现象 ,造成 科学 管理 的 不 完善 以 及 数据 无 法 追 
洲 等 相关 问题 。 
近年 来 ,国外 学 者 和 机 构 开始 研究 如 何 利用 能 

成 熟 度 模型 (capability maturity model ，CMM ) 来 评价 
数字 保存 系统 ,而 我 国 只 有 极 少数 学 者 借鉴 相关 模 
型 进行 研究 和 探索 ,其 中 国内 对 数字 资源 保存 的 不 
重视 占据 了 相当 一 部 分 原因 。 能 力 成 熟 度 模型 的 引 
入 ,在 一 定 程度 上 可 解决 数据 保全 系统 可 信赖 指标 
细 化 和 量化 的 难题 ,为 数据 保全 系统 迭代 与 更 新 提 
供 了 理论 支持 与 方向 ,同样 为 数据 流失 的 解决 方案 


提供 了 有 效 的 依据 。 其 中 ,数字 保存 能 力 成 熟 度 模 
型 ( digital preservation capability maturity model, DPC- 
MM ) 在 数字 保存 领域 应 用 的 最 广泛 且 相 对 成 熟 , 笔 
者 借用 DPCMM 模型 探讨 国内 高 校 如 何 解 决 数据 流 
失 的 难题 以 及 提出 科学 有 效 的 解决 方案 。 男 需 注 
意 ,笔者 所 提 及 的 保全 并 非 指 将 图 书馆 生产 以 及 尚 
需 挖掘 的 所 有 数据 进行 保存 ,而 是 指 在 图 书馆 由 于 
成 本 过 高 等 条 件 限制 下 ,对 其 可 控 范 围 且 具有 价值 
的 数据 进行 保全 。 


2 图 书馆 数据 及 其 特点 


图 书馆 的 数据 类 型 较 多 ,如 基于 移动 端的 用 户 交 
互 数 据 、 基 于 Web 端的 网 页 使 用 数据 、 基 于 图 书馆 实 
体 的 管理 数据 等 。 而 由 于 图 书馆 的 特殊 性 ,图 书馆 的 
数据 又 有 学 术 专业 性 .业务 逻辑 严谨 性 ,对 外 服务 友好 
性 及 可 观赏 性 等 多 种 特性 ,本 文 所 指 图 书馆 数据 主要 
为 已 被 发 现 且 具有 一 定价 值 的 数据 ,不 包含 尚未 挖掘 
的 价值 性 数据 。 

2.1 数据 及 其 来 源 

数据 是 文字 和 符号 的 集合 ,经 逻辑 归纳 而 形成 的 
对 客观 事务 的 表示 素材 ,具有 分 析 和 加 工 的 意义 。 一 
切 有 记录 的 \ 有 特殊 意义 的 文字 和 符号 都 是 数据 。 
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数据 体现 在 方方面面 。 例 如 ,手机 上 的 QQ 、 微 信 
等 无 时 无 刻 不 在 产生 数据 。 换 名 话说 ,与 人 类 行为 、 活 
动 有 关 的 信息 都 可 以 被 称 为 数据 。 在 高 校 图 书馆 , 数 
据 可 体现 在 资源 和 服务 两 个 方面 ， ,书籍 的 编号 .电子 
数据 库 中 的 馆藏 信息 、 计 算 机 上 及 书 的 文字 、 图 书馆 的 
温度 监测 系统 、 图 书馆 内 某 一 个 座位 的 使 用 频率 等 都 
是 具有 利用 价值 的 数据 。 

当今 信息 化 环境 下 ,图 书馆 的 数据 来 源 主要 有 3 
种 渠道 :一 是 实体 图 书馆 产生 的 生产 服务 数据 ,二 是 图 
书馆 网 站 的 资源 利用 数据 ,三 是 移动 终端 的 用 户 行为 
数据 。 如 图 1 所 示 : 
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ZX 高 校 图 书馆 数据 特点 


污 从 数据 的 来 源 产生 的 角度 来 看 ,高 校 图 书馆 数据 
其 哥 动 态 性 ,季节 性 和 时 效 规律 性 。 动 态 性 体现 在 高 
校园 书馆 数据 随 图 书馆 资源 使 用 情况 而 变化 ,例如 书 
籍 各 阅 量 ,座位 使 用 情况 ;季节 性 和 时 效 规律 性 体现 在 
握 是 动态 变化 的 ,但 其 具有 一 定 规律 ,例如 高 校 考试 
周 图 书馆 入 馆 人 数 明显 高 于 其 他 时 间 段 。 

从 存储 利用 的 角度 来 看 ,高 校 图 书馆 数据 具有 以 

下 特点 :基于 文献 数据 的 学 科 专 业 性 。 高 校 图 书 
馆 馆 藏 多 以 学 科 分 类 ,面向 对 象 为 在 校 大 学 生 , 书 籍 
多 为 权威 教材 及 参考 资料 。@ 基 于 生产 管理 数据 的 
客观 严谨 性 。 高 校 图 书馆 数据 的 管理 根据 图 书 检索 
类 型 与 频次 .书籍 与 个 人 借阅 次 数 以 及 借阅 时 间 段 
进行 划分 ,具有 一 定 客观 性 ,经 管理 人 员 分 析 以 调整 
策略 。 图 基于 读者 需求 与 对 应 书籍 数据 的 良好 匹配 
性 。 不 同 对 象 产生 的 数据 不 同 ,可 根据 数据 集 分 析 
得 出 相应 策略 。 例 如 大 学 新 生 与 老生 的 书籍 需求 不 
同 ,不 同 专业 侧重 (理工 科 文科) 的 大 学 专业 书籍 馆 
藏 类 别 和 数量 不 同 。@ 基 于 数据 管理 服务 的 周期 
性 。 图 书馆 所 生产 的 数据 具有 一 定 规律 性 ,图 书馆 
可 通过 其 规律 调整 服务 政策 。 
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3 ”图 书馆 数据 类 型 


从 数据 流失 现象 和 保全 需要 可 对 图 书馆 数据 进行 
以 下 分 类 : 
3.1 按照 可 观测 程度 

从 可 观测 程度 来 看 ,高 校 图 书馆 数据 可 分 为 显 形 
数据 和 隐形 数据 。 显 性 数据 是 指 公 众 可 浏览 的 可 视 数 
据 , 如 期 刊 杂志 数据库 ,书籍 上 的 文字 ,书籍 的 馆藏 状 
态 ,书籍 .期 刊 的 编号 等 ;隐形 数据 是 指 部 分 人 可 视 的 
随机 出 现 的 客观 数据 ,如 图 书馆 电脑 机 房 中 某 台 电脑 
上 一 天 内 产生 的 浏览 数据 , 自习 室 中 某 一 区 域 座位 一 
天 内 的 使 用 人 数 , 某 一 学 科 书 架 上 的 书籍 流动 情况 等 。 
3.2 按照 业务 流程 

从 业务 流程 角度 来 看 ,高 校 图 书馆 数据 可 分 为 生 
产 型 数据 .管理 型 数据 及 服务 型 数据 。 生 产 型 数据 指 
图 书馆 中 的 资源 在 组 织 、 加 工 过 程 中 所 产生 的 数据 ,如 
纸 质 图 书 的 条 码 , 电 子 资源 的 分 类 整理 ,文献 的 组 织 、 
加 工 等 ;管理 型 数据 用 于 文献 .机构 等 的 管理 ,主要 针 
对 图 书馆 馆 长 .主任 及 书记 等 ,如 图 书馆 内 图 书 总 量 、 
期 刊 数据 库 来 源 、 管 理 经 费 、 图 书馆 流动 人 员 实 时 监测 
数据 等 ;服务 型 数据 主要 为 读者 服务 ,如 索 书号 、 图 书 
馆 座 位 预约 编号 等 。 
3.3 ”按照 数据 存续 时 长 

根据 存在 时 间 长 短 , 高 校 图 书馆 数据 还 可 分 为 临 
时 数据 .中 转 数据 和 长 期 数据 。 根 据 数据 的 价值 ,将 数 
据 的 保藏 时 间 进 行 严格 管理 ,有 利于 资源 的 存储 及 调 
用 ,增加 存储 效率 。 针 对 不 易 保存 的 数据 ,构建 完善 的 
保存 体系 ,加 强 数据 的 管理 。 
3.4 按 数据 产生 对 象 

从 数据 产生 对 象 的 角度 ,高 校 图 书馆 数据 可 分 为 
服务 请 求 数 据 和 服务 响应 数据 。 服 务 请 求 数据 是 指 读 
者 客户 等 服务 接受 者 在 使 用 图 书馆 的 过 程 中 通过 人 
工 窗口 或 图 书馆 内 电子 设备 发 出 的 服务 请 求 数 据 , 最 
常见 的 有 图 书 的 借阅 和 电子 期 刊 的 借阅 权限 请 求 及 还 
书 请 求 数 据 。 服 务 响 应 数据 指 图 书馆 内 管理 人 员 即 有 
务 提供 者 对 服务 接受 者 的 请 求 做 出 的 回应 数据 ,如 电 
子 显 示 屏 上 显示 的 借阅 期 限 或 借阅 、 还 书 成 功 的 提示 
语句 。 

对 图 书馆 内 的 数据 进行 产生 对 象 的 分 类 有 助 于 完 
善 图 书馆 服务 ,收集 分 析 反 馈 信息 ,对 服务 质量 进行 有 
效 调整 ,提供 智能 化 服务 。 
3.5 按照 人 工 处 理 参 与 度 

根据 人 工 参 与 的 程度 可 将 数据 分 为 不 同等 级 。 根 
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据 这 些 不 同 的 等 级 可 将 数据 进行 分 类 。 例 如 人 工 参与 
度 高 的 数据 有 部 分 管理 型 数据 、 图 书 借阅 信息 等 与 图 
书馆 流动 人 员 有 关 的 数据 ,人 工 参 与 度 低 的 数据 有 图 
书 索 书号 .书籍 上 的 文字 等 客观 存在 的 数据 。 

在 图 书馆 智能 化 管理 的 进程 中 ,呈现 人 工 参与 度 
逐渐 降低 的 趋势 ,如 古代 图 书馆 图 书 资源 少 ,管理 圭 
闭 ;近代 图 书馆 更 加 普及 和 开放 ;现代 图 书馆 引入 信息 
技术 和 网 络 技术 ,管理 效率 大 大 提升 > 。 

3.6 ”按照 数据 载体 

以 载体 为 标准 可 将 高 校 图 书馆 数据 分 为 设备 数 
据 . 录 入 数据 ` 纸 本 数据 和 电子 数据 。 

设备 数据 是 指 自动 感应 记录 的 数据 ,例如 图 书馆 
一 天 内 人 员 进 出 的 流量 。 录 入 数据 指 和 人工 录入 的 数 
据 = 如 某 一 学 生 的 一 学 年 的 图 书 借阅 信息 。 纸 本 数据 
撕 晤 书馆 内 的 纸 质 图 书 期 刊 等 。 电 子 数 据 可 体现 在 视 
频 s 音 频 \ 文 本 和 图 形 等 。 随 着 信息 技术 的 发 展 ,电子 
贱 隆 日 趋 多 样 性 ,但 电子 数据 的 有 效 利用 程度 仍然 不 
高 5 对 纸 质 数据 和 电子 数据 的 使 用 情况 进行 长 期 分 析 
有 利于 电子 资源 的 普及 。 


AR 


人 7) 
4C 数 据 保 全 必要 性 


人 数据 保全 即 对 数据 进行 整理 .加密 ,使 其 不 随时 间 
疏 化 并 保存 起 来 以 供 后 续 分 析 使 用 。 高 校 图 书馆 的 数 
据 雪 有 保全 价值 。 基 于 数据 特点 ,管理 服务 型 数据 的 
集 鸭 有 利于 在 长 时 间 段 内 的 分 析 和 整合 ,优化 图 书馆 
服 终 ,打造 智慧 图 书馆 ;数字 资源 的 保藏 有 利于 后 期 借 
阅 和 资源 价值 的 反复 利用 ;图 书 资料 型 数据 需 进行 系 
统 帆 构 型 的 更 新 维护 ,以 提供 给 大 学 生 更 好 的 学 术 性 
服务 。 

虽然 国外 对 数据 保全 的 话题 逐年 递增 ( 见 表 1)， 
但 是 国内 却 很 少 有 人 能 够 意识 到 数据 保全 的 重要 性 以 
及 重大 意义 ,数据 保全 可 以 为 图 书馆 决策 (如 购书 策 
略 发 展 方向 数据 追溯 研究 等 ) 和 发 展 提供 重要 的 科 
学 依据 。 另 外 ,数据 保全 对 未 来 回顾 如 今 发 展现 状 以 
及 过 程 从 而 提出 新 的 发 展 方向 .追溯 最 早 的 数据 来 源 
等 方面 具有 极其 重要 的 研究 价值 。 数 据 保全 对 图 书馆 
现 有 的 价值 及 其 必要 性 体现 在 以 下 几 个 维度 。 
4.1 档案 性 

有 些 数据 具有 档案 价值 ,必须 保全 才能 发 挥 作用 。 
档案 价值 是 指 一 些 数据 具有 存储 整理 的 必要 性 ,以 供 
后 期 查阅 。 例 如 图 书馆 的 馆藏 信息 具有 档案 价值 。 当 
图 书馆 管理 人 员 发 生 流动 时 ,新 晋 管理 员 可 根据 保藏 
下 来 的 信息 核对 图 书馆 的 书籍 期 刊 文献 数量 ， 进 行 日 


表 1 数据 保存 文献 数 增长 情况 (来 源 : 爱 思 唯 尔 数据 库 ) 


Key Words: Data Preservation 


年 份 篇 数 
2019 23 085 
2018 20 009 
2017 18 134 
2016 yr 
2015 16 524 
2014 5 235 
2013 14 332 
2012 13 235 
2011 12 161 
2010 11 061 
2009 10 843 
2008 10 571 
2007 9 900 
2006 8 977 


常 图 书馆 信息 的 维护 和 更 新 。 从 管理 层面 来 看 ,对 于 
图 书馆 相关 人 员 的 信息 也 需 留存 档案 ,以 备 后 期 责任 
追究 和 人 员 调 动 。 
4.2 ”过程 管理 

数据 是 重大 事件 发 展 的 线索 ,是 图 书馆 管理 过 程 
的 体现 。 图 书馆 数据 具有 动态 性 可 以 反映 图 书馆 管理 
进程 , 任 一 时 刻 产 生 的 数据 都 有 可 能 具有 后 期 查阅 的 
价值 。 如 软件 开发 中 的 版 本 控制 ,在 软件 迭代 的 过 程 
中 ,可 能 某 一 版 本 具有 不 可 替代 的 优越 性 ,版 本 数据 的 
留存 为 后 期 版 本 更 新 提供 参考 。 又 如 规章 制度 的 修订 
拟定 ,图 书馆 根据 每 一 阶段 的 管理 进程 进行 合理 更 改 ， 
每 一 年 出 台 的 规章 制度 的 细微 之 处 的 修订 都 应 妥善 留 
存 。 
4.3 工作 效率 

数据 具有 时 将 性 。 数 据 的 妥善 留存 为 任务 继承 做 
准备 ,可 以 大 大 提高 工作 效率 。 进 程 数 据 的 保存 可 为 
下 一 阶段 工作 节省 工作 量 , 避免 重复 元 余 的 操作 。 如 
图 书馆 数据 的 录 人 、 分 类 和 管理 有 助 于 管理 人 员 进 行 
查找 搜寻 而 后 利用 。 相 关 文 件 的 保存 备份 可 大 大 减 
少 工作 量 , 利 于 相关 工作 人 员 在 此 基础 上 进行 更 改 和 
4.4 个 性 化 服务 

对 用 户 行 为 数据 保全 得 越 全 ,个 性 化 服务 就 越 有 
针对 性 。 相 关 数 据 需 要 进行 合理 的 整合 分 类 。 对 于 图 
书 用 户 的 个 人 信息 需 妥 善 加 密 ,相关 行为 的 分 析 利 于 
后 续 个 性 化 服务 的 定制 。 

在 采集 用 户 数 据 并 保藏 的 过 程 中 ,需要 注意 时 间 
连贯 性 .数据 采样 密度 ,样本 数量 .数据 精度 等 。 首 先 ， 
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时 间 连 贯 性 基于 数据 的 时 效 规律 性 。 用 户 某 一 段 时 间 
的 行为 数据 相互 之 间 含有 隐藏 信息 ,忽略 其 中 一 段 数 
据 的 储存 会 对 分 析 的 精确 性 造成 影响 。 其 次 ,数据 采 
样 密度 和 样本 数量 是 指 用 户 人 群 的 采样 数量 ,对 于 一 
类 相似 行为 数据 ,采样 数量 应 合理 ,有 时 候 太 精确 无 意 
义 。 例 如 ,系统 分 析 大 学 新 生 借阅 图 书 情况 时 ,需要 连 
续 采集 新 生 入 学 后 几 个 月 的 借 书 情况 ,在 前 两 个 月 用 
户 数据 较 少 ,可 能 与 军训 和 适应 期 有 关 , 采 样 密集 度 、 
样本 数量 相对 较 低 。 最 后 ,数据 精度 应 基于 实际 样本 
对 象 和 问题 具体 分 析 。 
5 数据 流失 问题 

从 数据 流失 的 形式 和 原因 ,以 及 国内 外 高 校 图 书 
馆 数 据 流失 和 保全 现状 展开 讨论 ,可 以 让 读者 对 国内 
外 族 据 流失 的 情况 以 及 具体 环节 有 一 个 基本 的 认识 ， 
让 而 为 改善 并 解决 数据 流失 问题 做 准备 。 
@G 数据 流失 形式 及 成 因 


加 管理 过 程 流失 及 原因 。 管 理 型 数据 主要 针对 图 书 


全 ,往往 由 于 管理 过 程 中 的 失误 而 导致 数据 
< 二 其 价值 或 未 妥善 保存 。 
在 领导 层面 上 ,由 于 管理 人 员 的 下 忽 和 不 完善 的 


喇 E 
一 覆 据 库 的 需求 量 增加 而 未 引起 重视 ;在 组 织 层面 上 ， 
卫浴 人 员 分 工 不 当 导致 关键 人 员 离职 或 岗位 的 缺失 会 
导 到 图 书馆 管理 上 的 混乱 ,如 书籍 的 分 批 采购 .数据 
库 的 更 新 等 , 需 各 尽 其 职 ;在 计划 层面 ,高 层 管理 人 员 
扎 画 数据 敏感 性 ,对 关键 信息 的 提取 缺乏 经 验 ,在 高 校 
图 书馆 的 环境 下 缺乏 针对 性 管理 措施 ;在 控制 层面 , 相 
关 管 理 人 员 缺 乏 预 测 能 力 , 可 通过 软件 计算 解决 。 

技术 性 流失 及 原因 。 技 术 性 数据 丢失 是 客观 的 ， 
由 相关 设备 不 完善 导致 。 在 数据 收集 上 ,如 下 载 量 数 
据 的 更 新 滞后 .灵敏 度 和 精度 不 高 ,会 对 数据 分 析 造 成 
影响 。 在 数据 组 织 上 ,高 校 图 书馆 数据 的 专业 性 要 求 
强 ,缺乏 相应 对 策 和 标准 ,会 使 文献 资源 数据 失去 其 本 
身价 值 ;在 数据 传输 上 ,通信 渠道 缺乏 可 靠 性 也 是 数据 
流失 的 重要 原因 中 ;在 数据 存储 上 ,未 根据 数据 类 型 进 
行 合理 分 类 ,使 具有 长 期 存储 价值 的 数据 无 有 效 存储 
空间 ,或 过 度 信赖 存储 机 制 ,导致 偶然 的 数据 丢失 无 法 
恢复 ,在 数据 的 备份 管理 上 未 加 强 有 效 监 管 。 

自然 性 流失 及 原因 。 自 然 性 流失 包括 潜在 需求 数 
据 流失 .客观 规律 数据 流失 及 关联 业务 数据 流失 。 数 
据 之 间 具 有 一 定 的 关联 性 。 在 技术 不 精 、 管 理 不 完善 


的 条 件 下 , 某 些 重要 隐形 数据 未 被 关注 。 同 时 数据 具 
有 时 间 规 律 性 ,如 新 生 和 人 馆 期 间 的 数据 与 以 往 其 他 时 
段 是 不 同 的 并 存在 潜在 变化 ,数据 未 被 发 掘 导致 管理 
层面 的 药 忽 。 与 图 书馆 相关 联 的 数据 还 有 网 络 中 心 相 
关 数 据 、 财 务 资产 数据 、 运 营 管 理 数 据 等 ,将 图 书馆 数 
据 孤 立 分 析 , 导 致 相关 有 效 数据 未 得 到 重视 。 
5.2 国内 外 高 校 图 书馆 数据 流失 情况 
国内 高 校 图 书馆 数据 流失 情况 。 笔 者 通过 对 清华 

大 学 北京 大 学 、 武 汉 大 学 、 华 中 科技 大 学 、 上 海 交 通 大 
学 等 高 校 官网 进行 分 析 , 以 研究 我 国 双 一 流 大 学 图 书 
馆 数 据 流失 以 及 保全 的 现状 ,发 现 北京 大 学 、 上 海 交 通 
大 学 的 图 书馆 官网 设计 较 有 特色 且 具 有 一 定 的 数据 保 

意识 ,而 上 海 交 通 大 学 在 图 书馆 大 数据 方面 表现 得 
更 加 出 色 。 上 海 交 通 大 学 图 书馆 自 2009 年 以 来 ,每 年 
都 有 年 度 报告 ,其 中 上 海 交 通 大 学 图 书馆 2018 年 度 报 
告 "首页 包含 了 到 馆 人 数 、 开 放 时 长 .总 借 还 量 .培训 
次 数论 文 发 表 数 .服务 人 次 等 众多 数据 ,并 进行 可 视 
化 展示 ,在 数据 开放 获取 方面 意识 较 强 。 另 外 ,华中 科 
技 大 学 链接 其 特色 的 创业 服务 ,北京 大 学 其 研究 生 + 
教师 的 特色 服务 说 明 其 对 学 生 的 数据 服务 已 有 所 起 
色 。 但 其 他 大 多 数 高 校 都 没有 做 到 对 自身 数据 进行 可 
视 化 分 析 , 且 大 部 分 图 书馆 都 只 提供 第 三 方 数 据 库 的 
目录 以 及 链接 ,其 中 链接 到 自身 高 校 数据 库 的 少 之 又 
少 , 国 内 高 校 图 书馆 要 做 到 保全 自身 数据 且 灵 活 运 用 
仍 需 较 长 一 段 时 间 。 高 校 图 书馆 的 数据 保全 不 能 局 限 
于 图 书馆 自身 ,作为 大 学 的 重要 组 成 部 分 ,高 校 图 书馆 
还 需 与 学 校 其 他 部 门 和 组 织 进行 深入 合作 ,为 大 学 的 
文化 传播 .教师 水 平 .学生 综 合 素质 的 提高 提供 全 面 的 
帮助 。 
国外 高 校 图 书馆 数据 流失 情况 。 通 过 对 国外 剑桥 
大 学 斯坦 福 大 学 、 哈 佛 大 学 、 麻 省 理工 学 院 等 高 校 的 
图 书馆 官网 进行 分 析 , 剑 桥 大 学 已 正式 将 数据 保全 作 
为 其 发 展 的 第 二 高 风险 ,并 提出 了 剑桥 大 学 数字 保存 
战略 规划 ” 。 自 2016 年 ,牛津 大 学 与 剑桥 大 学 开展 了 
名 为 牛津 和 剑桥 的 数字 保存 计划 (Digital Preservation 
at Oxford and Cambridge Project) ,其 主要 目的 为 在 大 学 
内 部 创建 知识 和 研究 方面 的 数字 馆藏 ,并 影响 到 国际 
研究 界 以 及 更 多 的 社会 组 织 。 剑 桥 、 哈 佛 等 图 书馆 与 
其 自身 高 校 文化 结合 的 较 好 ,为 其 师 生 提供 了 该 校 具 
有 和 较 高 研究 价值 的 特色 资源 ,从 其 官网 的 建设 中 可 以 
体现 出 其 文化 氛围 及 学 习气 氛 。 虽 然 其 数据 开放 利用 
程度 较 高 ,但 在 其 战略 规划 中 指出 用 DPCMM 模型 来 
分 析 其 数字 保存 情况 ,图 书馆 的 数字 保存 计划 仍然 还 
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有 很 长 的 路 要 走 。 

虽然 国内 有 少数 高 校 已 逐渐 开始 制定 图 书馆 数据 
保全 政策 ,但 是 无 论 国内 还 是 国外 ,数据 流失 的 状况 都 
在 发 生 , 高 校 图 书馆 不 同 于 公共 图 书馆 ,高 校 图 书馆 想 
要 和 带 给 学 生 更 好 的 数据 服务 ,与 高 校 其 他 部 门 和 组 织 


6.3 ”基于 管理 成 本 

根据 管理 成 本 对 数据 保藏 策略 进行 综合 考量 ,可 
确定 数据 保全 的 程度 。 从 人 力 成 本 来 看 ,图 书馆 人 工 
参与 度 越 来 越 低 , 需 对 管理 人 员 操 作 的 数据 和 机 器 产 
生 的 数据 进行 分 类 ,进而 细 化 人 力 成 本 等 级 。 一 般 而 


的 合作 势 在 必 行 。 而 图 书馆 为 自身 发 展 与 改善 所 需 收 
集 并 保存 的 数据 也 有 很 多 需要 研究 的 地 方 ,对 比 国内 
外 高 校 图 书馆 的 数据 流失 和 保全 情况 ,虽然 调查 中 的 
国外 高 校 图 书馆 做 的 好 一 些 , 但 是 差距 并 非 很 明显 , 仍 
有 赶 超 的 机 会 。 


6 ”数据 保全 策略 


言 ,人 力 成 本 越 高 ,数据 越 复杂 ,存储 价值 越 高 。 从 财 
力 成 本 来 看 ,部 分 数据 耗费 大 量 财 力 资源 ,对 数据 的 保 
藏 应 更 加 精细 。 如 外 文 外 刊 书籍 的 收集 需 耗 费 大 量 人 
力 物力 ,对 其 维护 和 监管 需 更 加 细致 。 从 物质 成 本 来 
看 ,部 分 数据 基于 物质 产生 ,如 相关 设备 的 耗材 、 系 统 
的 定期 维护 等 ,基于 物质 成 本 划分 也 是 对 数据 价值 的 
种 考量 。 


数据 保全 在 司法 范畴 应 用 较 多 ,在 图 书馆 应 用 中 
启 合 理 借鉴 其 特性 ,考虑 图 书馆 数据 的 特点 ,以 及 相关 
设 管 .工具 的 支持 ,对 保全 的 效力 .范围 进行 分 类 精确 


从 喇 面 展开 讨论 ,另外 将 在 结尾 处 借用 DPCMM 模型 
为 图 书馆 的 数字 保存 策略 提供 思考 点 。 

基于 基本 业务 

数据 保全 应 基于 基本 业务 开展 的 过 程 ,开展 业务 
时 霜 确 定数 据 类 型 .明确 管理 岗位 .梳理 工作 规程 , 然 


bb 


司机 据 在 此 过 程 中 产生 的 数据 设置 数据 保全 时 间 、 保 


(€ 


根据 相关 标准 对 数据 进行 分 类 后 ,数据 的 保藏 需 
考虑 备份 时 间 、 宛 余 设 备 配 置 . 安 全 权限 等 级 等 … 。 
备份 时 间 是 指 对 数据 的 保存 时 间 ,一 般 以 月 或 年 为 单 
位 ,对 数据 进行 更 新 。 宛 余 设 备 配制 需 考 虑 设备 的 工 
作 效 率 , 如 关键 岗位 的 UPS 配制 是 否 可 支持 当前 数据 
存储 量 \U 盘 移动 硬盘 是 否 安全 可 靠 等 , 需 定 期 进行 检 
查 更 新 。 
6.4 基于 创新 管理 

面 对 图 书馆 的 创新 服务 ,可 分 为 如 个 性 化 服务 . 泛 
在 服务 .智慧 图 书馆 等 。 个 性 化 服务 是 指 对 图 书馆 使 


优生 度 和 保存 价值 。 例 如 在 进行 图 书馆 日 常 书籍 期 刊 
的 寻 护 工作 时 ,根据 书籍 期 刊 的 类 型 .借阅 和 借 出 的 时 
i 酝 阅 次 数 .使 用 时 间 段 进行 分 类 。 图 书 借阅 时 间 的 
保 丛 有 助 于 管理 人 员 分 析 时 效 规律 性 ,为 后 续 管 理 提 
供 参 考 。 借 阅 时 间 的 保存 有 利于 提高 图 书 管理 员 的 工 
作客 率 , 避 免 不 必 要 操作 。 又 如 在 进行 工作 年 报 、 事 实 
数据 申报 及 考核 等 工作 时 , 需 区 分 文件 类 型 ,合理 保藏 
档案 ,对 于 每 递交 上 的 文件 进行 整理 和 归 类 。 
6.2 ”基于 管理 效率 

基于 管理 效率 考虑 图 书馆 保藏 策略 时 ,时 间 是 重 
要 的 参数 。 对 管理 过 程 中 的 数据 按照 时 间 进行 划分 ， 
有 利于 提高 管理 效率 。 如 数据 采集 数据 .响应 数据 ` 报 
表 生 成 时 间 等 。 数 据 采 集 数据 是 指数 据 的 采集 性 质 的 
设 定 ,在 数据 采样 过 程 中 ,不 是 全 部 数据 都 需 保藏 ,应 
根据 时 间 点 划分 , 留 下 关键 性 数据 ,同时 也 利于 节省 存 
储 空间 " 。 响 应 数据 是 指 相互 关联 的 数据 的 响应 。 
有 些 数据 响应 快 ,有 些 数据 需 经 过 一 段 时间 才 可 获得 。 
对 于 响应 数据 的 存储 应 注意 根据 响应 时 间 结 点 进行 保 
藏 。 报 表 生成 时 间 与 数据 生成 效率 有 关 , 数 据 报表 需 
保证 数据 来 源 的 可 靠 性 ,并 根据 数据 复杂 度 确定 其 生 
成 时 间 。 


] 者 进行 个 性 化 推荐 ,智能 还 书 提醒 ,相关 馆藏 书籍 定 
位 信息 推送 等 ,是 通过 用 户 行为 数据 分 析 得 到 的 "1。 
泛 在 服务 是 指 扩大 服务 范围 ,打造 常态 性 服务 。 泛 在 
服务 的 数据 来 源 于 不 同 基层 人 员 的 需求 和 相应 的 服务 
策略 。 智 慧 图 书馆 是 指 利用 互联 网 数据 打造 智能 化 管 
理 的 图 书馆 。 

基于 创新 管理 的 图 书馆 数据 保藏 策略 可 根据 相应 
管理 手段 来 考量 。 例 如 对 图 书馆 数据 的 全 生命 周期 进 
行 技术 改造 ,发明 创造 ,需要 根据 时 间 结 点 收集 用 户 数 
据 , 得 到 实时 用 户 数据 反馈 ,以 及 调整 服务 方式 。 如 建 
立 基于 图 书 借阅 数据 的 柔性 书库 .基于 用 户 行为 数据 
的 个 性 化 推荐 .基于 用 户 行为 数据 的 文献 资源 配置 等 ， 
需 根据 特定 用 户 某 一 时 段 借 阅 数据 ,根据 用 户 人 群 进 
行 划 分 ,得 到 准确 的 有 针对 性 的 数据 ,在 一 定时 效 内 进 
行 数据 的 积累 和 分 析 。 
6.5 ”数据 保全 方法 工具 
6.5.1 数据 保全 的 方法 

将 数据 进行 分 类 后 ,基于 不 同情 景 下 运用 的 保藏 
策略 不 同 , 相 应 的 保藏 方法 也 有 差别 ,合理 运用 方法 有 
利于 提升 工作 效率 ” 。 首 先 ,通过 程序 设计 可 以 解决 
日 常 办 公 中 的 事件 捕获 问题 。 如 抓 取 图 书 期 刊 号 前 四 
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位 或 整合 一 天 内 图 书 借阅 类 别 和 期 刊 信 息 。 其 次 ,对 
生产 ,管理 和 服务 中 产生 的 数据 需 进 行 合理 截取 和 整 
理 。 对 日 常 办 公 数 据 应 统一 版 本 ,方便 协同 工作 。 并 
对 全 部 数据 进行 备份 ,对 某 些 数据 设置 保藏 时 间 以 节 


省 存储 空间 。 其 中 图 书馆 需 保 存 的 主要 方法 及 场景 如 
表 2 所 示 : 
表 2 数据 保存 方法 及 场景 
方法 应 用 场景 
程序 设计 事件 捕获 ，cookies 日 志文 件 
人 台 帐 收割 对 生产 ,管理 和 服务 数据 
版 本 控制 对 日 常 办 公 数 据 
备份 全 部 数据 


6.5.2 ”数据 保全 的 工具 
本 -数据 保全 可 利用 的 工具 有 程序 类 平台 类 和 存储 
类 他 对 于 数据 的 获取 ,常用 工具 有 火车 头 、 八 爪 鱼 、 猪 
/等 风 络 民 虫 工具。 管理 人 员 可 对 相关 团 书 信息 库 
遂 委 人 取 ,获取 关键 信息 ,查找 相关 图 书 编号 ` 借 出 借 
阅 杭 息 ,相关 图 书 分 类 信息 等 。 还 可 建立 专业 管理 平 
会 ,便于 图 书馆 使 用 者 查询 图 书 在 馆 信息 ,座位 使 用 信 
熙 殉 自习 室 借用 信息 等 。 图 书 管理 员 可 根据 借阅 者 过 
全 稀 用 信息 及 情况 快速 定位 ,提高 工作 效率 。 还 可 建 
Baid 桌面 存 取 、 云 存储 平台 进行 数据 的 存放 和 查 
捍 坦 长 数据 保藏 时 间 。 
5, 多 数字 保存 能 力 成 熟 度 模型 (DPCMM) 
< 数字 保存 能 力 成 熟 度 模型 (DPCMM) 于 2007 年 首 
i Ashley 教授 和 加 拿 大 英 属 
FF 大 学 的 C. Dollar 教授 提出 "" 。DPCMM 将 机 
性 字 保 在 能 分 为 最 低 , 较 低 . 中 级 、 高 级 .最 优 5 个 
阶段 ,其 中 有 15 个 关键 审核 标准 。 所 有 15 个 
DPCMM 都 符合 ISO014721 的 要 求 和 ISO16363 中 的 审 
核 标准 组 件 要 求 , 才 能 达到 中 级 (第 3 阶段 功能 ) 水 平 ， 
见 图 2。 

(1) 数 字 保 存 基础 设施 : 包括 政策 .战略 ,管理 、 合 
作 .技术 知识 .开放 标准 ,特定 社区 .电子 文件 调查 。 

(2 ) 数 字 保 存 服务 : 包括 摄取 ,存储 ,设备 /媒体 更 
新 ,完整 性 ,安全 性 ,保存 元 数据 .访问 。 

DPCMM 在 详细 描述 每 个 审核 标准 的 概念 后 ,给 出 5 
个 层级 (分 别 对 应 0 -4 分 ) 对 15 个 审核 标准 进行 打分 ， 
从 而 将 机 构 数字 保存 能 力 进行 评级 。 其 量化 的 指标 及 
概念 对 国内 高 校 图 书馆 的 数据 保全 有 着 指导 性 作用 。 


7 结语 


图 书馆 是 大 数据 的 集合 地 。 大 数据 是 短期 内 难以 


户 
数字 保存 基本 架构 数字 保存 服务 : 
1. 政策 9. 摄取 
2. 战 略 10. 存储 
3. 管理 11. 计 划 设 备 、 媒 
4 合作 人 体 更 新 
5. 技术 专家 12. 完整 性 
6. 技术 原子 格式 13. 安全 性 
生产 者 
2 数字 保存 能 力 成 熟 度 模型 框架 


形成 的 数据 , 靠 长 时 间 的 积累 。 高 校 图 书馆 数据 除 

具有 数据 的 基本 特点 外 ,还 具有 基于 高 校 背景 下 的 特 

有 特点 。 由 于 高 校 图 书馆 主要 的 服务 对 象 为 高 校 大 学 

生 , 不 同 于 公共 图 书馆 的 服务 对 象 及 馆藏 数据 的 广泛 

性 ,高 校 图 书馆 数据 的 存储 和 管理 具有 时 效 规律 性 、 专 

业 性 ,往往 随 着 开学 季 毕 业 季 呈现 出 波动 性 和 相对 稳 

定性 。 

图 书馆 的 数据 是 有 规律 .有 价值 有 意义 的 ,也 必 

然 会 形成 大 数据 。 高 校 图 书馆 数据 的 流失 主要 体现 在 

相关 管理 数据 未 得 到 重视 ,或 与 用 户 相关 的 行为 数据 

未 得 到 正确 分 析 "” 。 如 学 生 考试 周 以 及 考研 等 数据 

集中 的 阶段 ,未 对 数据 进行 合理 保藏 和 利用 等 。 
现在 由 于 认识 和 意识 的 局 限 ,客观 存在 数据 流失 

现象 。 随 着 图 书馆 创新 管理 工作 的 进行 ,以 及 智慧 化 

图 书馆 建设 和 利用 的 跟 进 ,在 高 校 图 书馆 走向 智能 化 

的 背景 下 ,数据 的 保藏 将 越 来 越 受 到 重视 ,数据 流失 问 

题 也 终 将 被 解决 。 
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| Purpose/ significance | To investigate the data preservation capability and loss status of some doub- 


(Dfirst class university libraries in China, research and analyze the application of the maturity model of digital preser- 
awation capability in reducing data loss and data preservation, and for the construction and development of domestic 
a preservation systems Provide references. | Method/ process | By exploring the data preservation and utilization 
of the official websites of some university libraries at home and abroad, it analyzed from the dimensions of digital col- 
lection resources, digital preservation capabilities and policies, and digital preservation consciousness. Comments on 
the resulting data loss. | Result/conclusion | To summarize the current status of digital preservation in some colleges 
and universities in China, and put forward the necessity and significance of improving the digital preservation capabil- 
ities of Chinese university libraries, and use the Digital Preservation Capability Maturity Model ( DPCMM ) to provide 
theoretical support for university library data preservation. 
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